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ju nou d i 例如 环境 监测 、 智 方面 ， 由 于 反 向 散射 通信 (backscatter communication, BC) 技 术 
有 超 低 功 耗 的 特点 ， 可 广泛 应 用 于 能 量 受 限 的 物 联网 和 无 线 
取决 于 接收 信 感 器 网 络 场景 中 ， 以 降低 设备 的 通信 能 耗 和 运行 成 本 。 因 此 ， 


b XR 


能 交通 和 智能 农业 系统 等 等 。 这 些 物 联网 应 用 基于 对 物理 过 
程 的 实时 状态 更 新 来 输出 决策 ， 决 策 的 准确 怕 


反 向 散射 辅助 的 无 线 供 能 通信 中 的 信息 年 龄 最 小 化 
RIR E K, RAK B R Az 


(广州 大 学 电子 与 通信 工程 学 院 , 广州 510006) 


摘 要 : 信息 年 龄 (AoD 是 一 种 从 目的 端的 角度 衡量 所 捕获 数据 新 鲜 度 的 性 能 指标 。 在 能 量 受 限 的 实时 感知 物 联网 场 
景 中 ， 为 了 提高 系统 的 Aol 性 能 ， 提 出 了 联合 采样 和 混合 PU a D 该 策略 通过 允许 源 端 选择 状态 
采样 动作 以 及 更 新 过 程 的 传输 模式 来 最 1 \ 化 系统 的 长 期 平均 AoI。 具 体 来 说 ， 首 先 将 该 优化 问题 建 模 为 一 个 平均 成 
本 马尔 可 夫 决 策 过 程 (MDP)， 然 后 在 已 知 环 境 动态 信息 的 情况 下 ， 通 过 相关 值 和 迭代 算法 获取 最 优 策略 ; 在 缺乏 环境 
动态 信息 的 情况 下 ， 采 用 Q 学 习 算 法 和 探索 利用 方法 ， 通 过 与 环境 的 试 错 交互 来 学 习 最 优 策 略 。 仿 真 结果 表明 ， 与 
Fd bici 所 提出 的 策略 明显 提高 了 系统 Aol 性 能 ， 同 时 发 现 系 统 的 Aol 性 能 随 更 新 包 尺 寸 的 减 小 或 者 电 

容量 的 增 大 而 提升 。 
i o mue up RII dE: 
中 图 分 类 号 : TP393; ^ doi: 10.19734/j.issn.1001-3695.2021.12.0691 


Age of information minimization for backscatter assisted wireless powered communications 


Song Zhaoxi, Tang Dong!, Huang Gaofei, Zhao Sai, Liu Guiyun 
(School of Electronics & Communication Engineering, Guangzhou University, Guangzhou 510006, China) 


Abstract: Age of Information (Aol) is a performance metric that captures the freshness of data from the destination's 
perspective. In the energy constrained real-time sensing Internet of things scenario, this paper proposed a joint sampling and 
hybrid backscatter communication updating policy to improve the Aol performance of the system. The policy minimized the 
long-term average Aol of the system by allowing the source to select state sampling actions and transmission modes of 
updating processes. Specifically, this paper modeled the problem as an average cost Markov decision process (MDP) . Then, 
when the system realized the dynamic environment information, the paper adopted optimal strategy by relative value iterative 
algorithm. When the system lacked the dynamic environment information, the paper applied Q-learning algorithm and 
exploration exploitation technique to learn the optimal strategy through trial-and-error interactions with the environment. 
Simulation results show that compared with the two reference policies, the proposed policy significantly improves the AoI 
performance of the system, and the Aol performance of the system increases with the decrease of the update package size or 
the increase of battery capacity. 

Key words: age of information; wireless powered communication; backscatter communication; Markov decision process; 
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引言 


frequency, REF) 并 转换 为 电能 来 保持 设备 的 持久 运行 B4。 特 别 
是 由 于 无 线 电波 的 无 处 不 在 , 基于 射频 的 无 线 能 量 传输 (wireless 


随 着 物 联网 技术 的 发 展 ，i 
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年 来 越 来 越 多 的 无 线 传 感 器 power transfer, WPT) 被 认为 是 有 潜力 的 一 种 能 量 收集 技术 。 男 
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息 的 新 鲜 程 度 趾 。 为 了 衡量 和 量化 接收 信息 的 新 鲜 程度 ， 文 。 在 时 间 敏感 的 物 联网 网 络 中 考虑 结合 WPT 技术 和 BC 技术 可 
献 [2] 提 出 了 信息 年 龄 (age of information, AoD, 它 从 目的 端的 ” ”以 减 小 系统 的 整体 能 耗 ， 实 现在 维持 网 络 设备 监测 服务 持续 运 
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EL 
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harvesting, BH) 技 术 被 认为 是 最 有 希望 解决 这 一 问题 的 方案 中 源 端 使 用 从 自然 界 中 获取 的 能 量 进行 更 新 传输 ， 并 且 由 了 
之 一 ， 它 的 发 展 大 大 缓解 了 物 联网 设备 能 量 受 限 的 问题 。 它 。 能 量 产 生 的 不 可 预测 性 ， 能 量 收 和 


角度 对 接收 信息 的 新 鲜 程 度 进行 量化 ， 定 义 为 自 源 端 生成 的 行 的 同时 保持 物 联网 应 用 接收 信息 的 新 鲜 度 。 
新 状态 更 新 成 功 到 达 目 的 端 所 经 时 间 越 短 (AoI Aol 的 早期 工作 主要 集中 在 从 排队 论 的 角度 最 小 化 Aol, 
值 越 小 ) 新 鲜 度 越 好 (Aol 性 能 越 好 )。 然 而 ， 物 联网 设备 的 能 。” 即 通 过 将 更 新 系统 建 模 为 由 源 、 服 务 设施 、 监 视 器 组 成 的 队 


应 用 收 到 过 时 状态 更 新 的 可 能 性 。 能 量 收集 (energy 献 [6~8] 研 究 了 在 能 量 收集 通信 系统 中 Aol 的 分 析 和 优化 ， 


量 受 限 特性 导致 设备 无 法 及 时 地 4 发 送 更 新 ， 从 而 增加 了 物 联 ” 列 系 统 ， 并 利用 最 优化 理论 工具 来 最 小 化 AoI25。 最 近 ， 文 


ü W l 


过 程 通常 被 建 模 为 独立 上 


可 以 通过 捕获 周围 的 动能 、 热 能 、 太 阳 能 或 者 射频 能 量 (radio 随机 过 程 。 然 而 ， 当 源 端 从 周围 的 射频 信号 中 进行 能 量 收 旨 
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时 5201， 收 集 的 能 量 大 小 将 依赖 于 射频 源 的 发 射 功 率 和 当前 1.1 监测 模型 

时 隙 的 信道 状态 信息 (channel state information, CSI) 。 文 献 [12] 考虑 一 种 联合 采样 和 混合 反 向 散射 通信 更 新 策略 ， 即 在 
进一步 考虑 了 更 新 的 生成 时 间 并 提出 了 一 种 联合 采样 和 更 新 “时 隙 的 开始 时 刻 ， 源 端 不 仅 需 要 决定 传感器 的 状态 采样 动 


策略 。 在 该 策略 中 , 源 端 需要 决定 更 新 包 的 生成 和 发 送 时 间 作 ， 还 需要 决定 混合 发 射 器 的 状态 更 新 模式 。 状 态 更 新 模式 


然后 在 需要 发 送 时 通过 无 线 供 能 通信 (wireless powered ”示意 图 如 图 2 所 示 ， 在 时 隙 "内 ， 源 端 可 以 通过 控制 其 内 的 
communication, WPC) 实 现状 态 更 新 包 的 传输 。 然 而 ， 由 于 ”混合 发 射 器 执行 EH 模式 进行 能 量 收集 或 者 执行 BC. IT 等 
WPC 需要 消耗 大 量 的 能 量 进行 主动 信息 传输 , 这 导致 了 高 功 单一 模式 或 者 执行 EH-BC、EH-IT、BC-IT、EH-BC-IT 等 组 
耗 问题 ， 进 一 步 加 剧 了 源 端的 电池 能 量 限制 。 合 模式 进行 状态 更 新 的 传输 。 特 别 地 ， 为 了 易于 处 理 ， 可 以 


不 同 于 WPC, BC 是 一 种 新 兴 的 绿色 低 功 耗 通信 技术 3， ”将 EH 模式 表示 为 < 模式 ,用 于 状态 更 新 传输 的 单一 模式 BC， 
它 是 实现 可 持续 通信 的 一 种 有 希望 的 选择 。 具体 地 , BC 可 以 IT 表示 为 ! 模式 和 “模式 ， 并 且 组 合 模式 EH-BC、EH-IT、 
通过 反射 来 自 外 部 射频 源 的 入 射 信号 来 进行 信息 传输 ， 它 不 BC-IT, EH-BC-IT 分 别 对 应 表示 为 4 模式 、。 模 式 、/ 模式 以 
需要 产生 主动 射频 信号 ， 所 以 消耗 的 功率 要 比 WPC 低 几 个 ” REX. 


数量 级 。 然 而, BC 的 传输 范围 有 限 且 数据 速率 相对 较 低 。 为 

了 克服 BC 的 局 限 , 文献 [14~17] 研 究 了 一 种 结合 BC 和 WPC dam fc) o gm, 

的 混合 反 向 散射 通信 (hybrid backscatter communication, HBC) IE 1] 

案 以 最 大 化 系统 吞吐 量 性 能 ， 其 中 发 射 器 可 以 自 适 应 地 选择 PETI" 

BC 或 WPC 进行 数据 传输 。 特 别 是 文献 [17] 提 出 了 一 种 新 的 混 EN pu um 

合 通信 协议 ， 在 该 协议 中 混合 发 射 器 被 允许 以 细 粒 度 的 方式 在 2 状态 更 新 模式 示意 图 

一 个 时 间 块 内 自 适 应 地 切换 EH. BC 或 IT 模式 来 进一步 提高 Fig.2 Schematic diagram of state update mode 

系统 的 吞吐 量 性 能 。 然 而 ， 文 献 [14~17] 并 没有 考虑 到 如 何在 反 S a(n) - (wn), z, (n)) 表示 ”时 隙 源 端的 状态 采样 和 更 新 模 

句 散 射 辅助 的 无 线 供 能 通信 中 最 小 化 系统 的 A oT 值 。 式 向 量 ， 其 中 wet 为 源 端 的 状态 采样 动作 ， zm) e{0,1} , 
尽管 在 反 向 散射 通信 的 研究 中 以 Aol 为 性 能 指标 的 文献 me M 5(a.b,c,d,e, fg) 表示 源 端的 状态 更 新 模式 。 若 源 端 在 4 时 


较 少 ， 但 它 依 然 是 一 个 关键 因素 。 因 此 ， 在 时 间 敏 感 的 物 联 ” 隙 进行 状态 采样 则 wn)=1， 否 则 ，w(m)=0。z(m)=1 表 示 源 端 在 
网 应 用 中 ， 开 发 一 种 以 最 小 化 系统 平均 Ao 为 目标 的 采样 和 ”时 隙 进行 能 量 收集 ， 和 否则 ，zsm=1，ks4 tcdejs} 表 示 源 
更 新 策略 是 本 文 的 研究 重点 。 虽然 文献 [12] 所 提出 的 联合 采 ” 端 在 + 时 隙 通过 k 模 式 传输 状态 更 新 。 
样 和 WPC 更 新 策略 在 一 定 程度 上 提高 了 系统 的 Aol 性 能 ， 1.2 能 量 收集 模型 
但 是 WPC 的 高 功 耗 特性 间接 地 限制 了 系统 Aol 性 能 的 提高 。 假设 能 量 发 射 器 ET 以 恒定 功率 ”向 源 端 S 持续 地 发 送 
在 这 种 情况 下 , 本 文 考虑 结合 WPT 和 BC 技术 实现 状态 更 新 的 。 ”射频 能 量 。 同时 , 源 端 将 收集 到 的 能 量 存储 在 容量 为 8B, 的 电 
传输 ， 通 过 运用 基于 模型 的 相关 值 迭 代 算 法 和 无 模型 的 Q 学 习 — 池 中 ， 用 于 在 未 来 进行 状态 信息 的 采样 和 更 新 包 的 传输 。 令 
算法 08 求 解 优 化 问题 ， 提 出 了 一 种 最 小 化 系统 长 期 平均 AoI 的 in eftsg(n),tsc(n),tn()} 表示 模式 运行 时 间 向 量 , PEP teln), tacl) ， 
联合 采样 和 HBC 更 新 策略 , 该 策略 通过 允许 源 端 根据 当前 信道 s 00 它们 分 别 表示 时 隙 ”中 EH, BC, IT 模式 的 运行 时 间 。 
状态 、 电 池 能 量 状态 以 及 源 端 和 目的 端 Ao 信息 自 适 应 地 选择 ”因此 ， 对 源 端 的 不 同 模式 ， 时 间 分 配 应 满足 如 下 约束 :对 于 模 
状态 采样 动作 和 更 新 传输 模式 来 进一步 提高 系统 的 Aol 性 能 。 3X4 , ta(n), tac (n) o t5 00 90 ;对 于 模式 b，, 各 四 =1， t (0) =tr(n)=0 ; 
n 对 于 模式 < ,六 和 =1, tg (0-150) 70 ;类 似 地 ,模式 4 有 : 0-0 , 
1 ”系统 模型 tu +t n=l; 模式 。 有 : tsc()=0 ,tmw(W)+in(m)=1 ;模式 1 有 : 


系统 模型 如 图 1 所 示 , 考虑 由 一 个 能 量 发 射 器 ET. M 000 ,tsc(D)+tz(m)=1; 最 后 ,对 于 模式 8 ,toy Q0) c0) 5 (0) 21 
S 和 目的 端 D 组 成 的 无 线 反 向 散射 传感器 网 络 。 其 中 ， 能 量 为 了 易于 处 理 ， 上 述 等 式 可 以 表示 为 
发 射 器 ET 连接 到 电网 ， 用 于 向 源 端 提供 射频 能 量 。 源 端 包 z, (tg Q0) + zo Mtge (n) + z Qt, (n) + 
括 一 个 能 对 物理 过 程 进行 实时 状态 采样 的 传感器 和 一 个 能 向 Za ten Q1) + tge Q0) + Z, O0) y (n) + tyr Q0) + (1) 
目的 地 发 送 状 态 更 新 信息 的 混合 发 射 器 。 混 合 发 射 器 配备 射 Zs (n) c Q0 + tir (0) + zs ten (n) gc (1) +t (0) 71 
频 能 量 收集 电路 、 反 向 散射 电路 和 主动 射频 电路 ， 以 便 通 过 S Ey 60) 、 如 ,9 分 别 表示 在 时 隙 4 源 端 的 混合 发 射 器 以 
混合 反 向 散射 和 无 线 供 能 通信 实现 射频 能 量 的 收集 和 状态 信 模式 运行 时 收集 的 能 量 和 消耗 的 能 量 ， 消 耗 的 能 量 包 括 BC 
息 的 传输 。 路 消耗 的 能 量 Pacte), IT 模式 下 电路 消耗 的 能 量 
假设 系统 时 间 被 划分 为 具有 索引 有 =012…'X 的 单位 时 hrin(n) 、 发 送 状 态 更 新 包 消 耗 的 能 量 ,。 因此 , 对 于 源 端 收集 的 
隙 。 不 失 一 般 性 ， 假 设 每 个 时 隙 的 持续 时 间 为 1 秒 。 源 端 S 能 量 Eu 00 和 消耗 的 能 量 5.,)， 可 以 分 别 表示 为 
将 在 每 个 时 际 的 开始 时 刻 决定 采样 动作 和 更 新 模式 ， 并 且 状 Ph(m)ta (n) melaa 
SKEME 3e dr RT EARANN. NE). RAE RT J a n)nPhG)tsc (n) if m e (b, f) Q) 
| 比 状态 采样 的 时 间 成 本 和 能 量 fp 
成 本 不 可 忽略 09。 令 ji 和 e) 分 别 表示 "时 隙 ET 到 S、S 到 — M ulpa 
D 的 信道 链 路 增益 , 假设 它们 都 受到 准 静 态 信道 衰落 的 影响 ， 其 中 7s(0D 为 RF 到 DC 的 能 量 转 换 效率 ，aln)e[01] 表 示 7* 时 
这 意味 着 信道 状态 将 在 一 个 时 隙 内 保持 不 变 ， 在 不 同时 隙 之 隙 源 端的 反 向 散射 系数 ; 
间 独 立 变化 。 l 
0 if m=a 
hon) d O gn Pacta (0) if me{b,d) 
E 9 Fra (09) 73 p i ptg (n) imei) ®© 
_ 能量 流 _ 5 信息 流 P. gctgc (n) + P. ptr (0) + pn), (n) if metf.g) 
图 1 无 线 反 向 散射 传感器 网 络 模型 其 中 ， pn) 表示 ”时 隙 源 端 主动 信息 传输 的 发 射 功率 。 根 据 


Fig. 1 Wireless backscatter sensor network model 香农 公式 ， 则 ”时 隙 内 BC 模式 下 传输 的 数据 包 大 小 为 
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MDP 问题 ， 然 后 针对 环境 动态 信息 


已 知 的 情况 ， 在 2.3 节 使 


用 基于 模型 的 相关 值 迭 代 算 法 对 问题 进行 求解 ， 针 对 环境 动 


法 求解 问题 。 


录用 定稿 宋 兆 希 ， 等 : 反 向 散射 辅助 的 无 线 供 能 通信 中 的 信息 年 龄 最 小 化 
Rgc =tsc (n)log, (1+ E (4) 
^ IERI IT 模式 下 传输 的 数据 包 大 小 为 
Razin logs 14 PE) (5) 


AUTE n RAEE w 比特 的 状态 更 新 包 ,， 则 反 向 
散射 系数 a(n) 和 主动 信息 发 射 功率 pOn) 需 满足 如 下 约束 : 
Ric+Rr >M (6) 


2.1 马尔 可 夫 决 策 过 程 


令 电 池 能 量 的 最 大 量化 级 别 表示 为 %。， ， 用 
Bin) €(0,e,,2e,.... Bs] 表示 "时 隙 源 端的 电池 能 量 状态 ， 其 中 
By £s ` T x 
67 RIR 能 量 量子 。 BOO 满足 如 下 能 量 因 果 关 系 : 


max 


B(n)-w(n)E, + Ep „(n)- E; „p (n) 20 (7) 
因此 ， 源 端的 电池 能 量 B 的 变化 可 以 表示 为 
B(n +1) = min[max(B(n) - w(n)E, + Ej, (n) = Er, (n),0), Bu] (8) 


1.8 “信息 年 龄 模型 

Aol 定义 为 自 源 端 生成 的 最 新 更 新 到 达 目 的 地 所 经 历 的 
时 间 。 令 Co) E{1,2,... Co} 和 AQ) €(5,2.... A) 分 别 表示 "时 隙 源 
端的 Aol 和 目的 端的 AoL Co 和 4 分别 表示 源 端 和 目的 端 
的 Aol 上 界 。 假 设 源 端 执行 状态 采样 需要 花费 1 个 时 隙 的 时 
间 成 本 以 及 五 大 小 的 能 量 成 本 。 若 源 端 决定 进行 状态 采样 ， 
则 由 于 1 个 时 阶 的 采样 时 间 成 本 ， COO 保持 不 变 ，Cln+D 重 
置 为 1， 否则 Co+D 线性 增加 1。 因 此 ， 源 端 Aol 的 动态 变化 
可 以 表示 为 


EU 


B 1 if a(n) 2 (l, z„(n)) 
Card- d C. COO + if a(n) = (0, z, 0) 0) 
KrB, meA 。 为 了 简化 表示 ， 上 述 等 式 可 以 重 写 为 
C(n+1)= (1-wCD))minfC C(1) +1}+ wn) (10) 


同时 ,假设 源 端 传输 状态 更 新 需要 IRSE DITE Pe ENT [RT o 
若 源 端 决 定 进行 状态 更 新 ， 则 A EEN C+, B) AQ) 
线性 增加 1。 因此，4(n) 的 动态 变化 可 以 表示 为 
min Ase CEL) it a(n) = (w(n), z, (n)) (11) 
min{Amx A) +1} if a(n) — (w(n), z, Q1)) 
ER, keM 。 为 了 简化 表示 ，4C+D 可 以 通过 以 下 约束 表示 : 

A(n+1) =z (n) min(A,, Cn) +1}+ z, (n)min{ Aw A(n) H1] (12) 

1.4 优化 问题 

令 z={x(0),x(),.…x(N)}elI 表示 源 端 采 取 的 一 个 确定 性 决策 ， 
它 决 定 了 源 端 每 个 时 隙 的 状态 采样 和 更 新 模式 决策 .其 中 aln) 
为 "时 隙 源 端 采取 的 某 个 状态 采样 动作 和 更 新 模式 ，n 为 所 
有 可 能 的 策略 集合 。 若 源 端 采取 策略 元 ， 则 目的 端的 长 期 平 
均 Aol 可 以 表示 为 


A* ^lim sup xu s. [A00]. (13) 

本 文 的 目标 是 通过 寻找 年 龄 最 优 策略 t 来 最 小 化 目的 

端的 长 期 平均 Aol. 因此 , 寻找 年 龄 最 优 策略 = 对 应 于 求解 以 
下 问题 (P1): 


amsn] 


(P1): min limsup c XE. [A0] 
s.t. ten (n) €[0, T], 5c (n) € [0,1],15 (n) € [0,1] (14) 
w(n) € (0,1) a 5) 
Za (n) € {0,1}, 2 z (n) =1 (16) 
me; At 


(1), (6), (8), (10), (12) 
2 。 最 优 决策 策略 
言 道 状 态 随时 间 的 独立 性 导致 了 源 端 的 能 量 状态 及 其 能 
量 状 态 转换 的 不 确定 性 ， 因 此 最 小 化 长 期 平均 AoI 问题 是 一 
个 随机 优化 问题 。 为 了 求解 这 个 问题 ， 本 文 首 先 将 其 转换 为 


要 组 成 成 分 进行 详细 的 介绍 。 


由 于 信道 增益 hw)、g(m) 随时 间 变 化 的 独立 性 以 及 源 端 的 
电池 能 量 8(n) 、 源 端 和 目的 端的 信息 
化 过 程 的 马尔 可 夫 性 ， 因 此 可 以 将 最 小 化 长 
建 模 为 无 限时 域 的 MDP 问题 。 根 据 [20]， 下 面 


EAS Cn) AG) 动态 变 
期 平均 AoT 问题 


态 信息 未 知 的 情况 ， 在 2.4 节 提 出 了 一 个 无 模型 的 Q 学 习 算 


对 MDP 的 主 


a) 状态 空间 : 


s(n) $(80), AQ, Chagas, Kp, SÆ 
态 的 状态 空间 ， 它 是 一 个 有 限 集合 。 


b) 动作 空间 : Er EE Be , Jxm E 


于 实际 的 信道 增益 是 连续 
此 本 文采 用 FSMC 模型 1， 将 信道 增益 等 概率 划分 为 < 个 离 
散 信道 增益 。 在 这 种 情况 下 ， 可 以 定义 ”时 隙 的 系统 状态 为 


包含 所 有 可 能 系统 状 


决定 传感器 的 采样 动 


JE wmn) 和 混合 发 射 器 的 更 新 模式 00 ， 
运行 参数 (包括 反 向 散射 系数 a(n) d 


同时 确定 更 新 模式 的 


输 功 率 p(n) 、 


模式 时 间 分 配 向 量 1w))。 因 此 ， 在 st) 状态 下 源 端 采取 的 动作 


示 系 统 状 态 S) 下 的 动作 空间 。 


可 以 表示 为 : x(s(m)) 人 {wn),z,(n),a(n), p(n),t(m} € x). o 


中 ， XG) 3 


c) 转移 概率 : 为 了 简化 表示 ， 使 月 
前 时 隙 的 系统 状态 ，y ={B,4,C 几 8 表示 下 一 时 隐 的 系统 状态 。 
于 状态 变量 之 间 相 互 独立 ， 因 此 在 给 定 当 前 的 系统 状态 * 


H s={8B,4,C,h,8} 表 示 当 


P(B'|B,h g.x(s))P(A'| A,C,x(s))P 


AUKHUUSME xs) 下 ， 从 :转移 到 ;的 概率 为 
P(s'|s,x(s))EP(B',A',C',h',g'|s,x(s))= 
(Ccx(s)P) P(e) (7 


d) 奖励 函数 : 令 G(s,x(s)) RRE NR, RARS TR 


取 动 作 x9 的 即时 成 本 ， 则 GG. x9) 可 以 定义 为 
G(s,x(s)) 2 A' 


2.2 ”问题 转换 


(18) 


根据 2.1 节 对 MDP 组 成 成 分 的 表述 ， 优 化 问题 (P1) 的 系 


统 状态 空间 和 动作 空间 是 有 限 的 ， 


态 有 限 动 作 的 平均 成 本 MDP 问题 。 
阶段 平均 成 本 对 应 MDP 问题 的 奖励 函数 (18)。 
初始 状态 % 的 情况 下 ， 可 以 重 写 问题 (P1) 为 


(P2): min lim sup v s. [GG. xs) | so] 
s.t. (1), (6), (8). (10), (12), (14) ~ (16) 


2.3 ”相关 值 迭代 算法 


ER FERR, m, = sm) =s0h) 时 ,如 
rh n Jy A ur8 RS 
限 状 态 有 限 动 作 的 


它 可 以 转换 为 一 个 有 限 状 
寺 别 地 ， 优 化 问题 的 每 


KIE, ERE 


Hr 


则 称 策 略 zc e LI 是 确定 性 平稳 策略 ， 
定性 平稳 策略 集合 。 由 于 问题 (P2) 为 有 


MDP 问题 , 所 以 存在 一 个 最 优 的 确定 怕 
于 策略 是 平稳 的 ， 因 此 在 下 文中 时 间 索 引 可 以 被 忽略 。 根 


x(n) 7 x(n) , 


平稳 策略 P9。 此 外 ， 


据 [22]， 对 于 平均 成 本 MDP 问题 ,可 以 通过 求解 以 下 贝尔 曼 


方程 获取 最 优 策略 m: 


A +V(s)= min Q(s,x), Vs €S, 
Xex(s) 


(19) 


其 中 ， P 为 最 优 长 期 平均 Ao, VG) 是 相关 值 函数 ， 定 义 为 
V(s) zum (Qs. x) - Qs. 39)) 


Q0) 


可 以 是 任意 给 定 的 初始 状态 ， 动 作 值 函数 0.9 E UN 


Q(s.x) zB pe ONU 


Q1) 


>H 


此 , 可 以 通过 求解 下 式 获得 长 其 


c^ =arg min Q(s,x). 
xer(s) 


平均 Aol 最 优 策略 m : 


C2) 


202204.00077V1 
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录用 定稿 


为 了 获得 A* 和 x* ， 在 已 知 信道 转移 概率 的 情况 下 ， 本 
XK H 4 X fi 3 (X SE YE (relative value iteration algorithm, 
RVIA)P?HA (CHR f£ D1 ^R 5 75 E809) . 特别 地 , 对 于 任意 初始 
状态 5， 在 RVIA 的 第 ttl 次 迭代 中 ， 有 如 下 等 式 : 


Q(s.x)^? =G(s,1)+ 3, PG ls)V (YY Q3) 
A" min Q(s,x)^" (Q4) 
xez(s) 
V (8) =min (O(s, x)" -Q(s, x") Q5) 
令 CM - Cun EZ HB kH UOS AX DUK S 26, Horn cR 
< 中 分 别 定义 为 
ck = max |V GS)? -v ("| Q6) 
cha = min |V (s)? -v (sy? Q7) 
A28 k ERHI ULAK EIRE EAE es ces [se EE, ao KeS 


到 每 阶段 最 优 平均 成 本 A*， 此 时 通过 (22) 式 即 可 获得 对 应 的 
最 优 策略 x* 。 算 法 的 具体 步骤 如 算法 1 所 示 。 
算法 1 相关 值 迭 代 算法 

输入 : 初始 系统 状态 %， 以 及 贝尔 曼 误 差 阔 值 < 。 
输出 : 4* ， 以 及 最 优 策 略 m 。 

a) 初始 化 KE=0，VY(G)O -0 UL R |o, - cb | € 。 

b) 当 |ch -chis|>E 时 ， 重 复 执行 以 下 步骤 ; 

c) 计算 每 个 状态 ses 的 QAD 以 及 AC ; 

d) 4v(s)? -v(s)^? , 35g V (s)^" =minwyo (Q(.3) -OoGoaoe)， 以 及 < 总 和 

Cho EADARRA k- kel 后 转 步骤 b) 。 

e) 通过 计算 (22) 式 可 以 得 到 最 优 策 略 ms 
2.4 Q 学 习 算 法 
在 实际 环境 中 , 信道 状态 的 转移 概率 通常 是 难以 获得 的 ， 
寻 此 本 文采 用 一 种 无 模型 的 Q 学 习 在 线 算法 0 求解 问题 (P2)， 
达 代 地 寻找 最 优 策 略 。 具 体 的 来 说 ,在 Q 学 习 的 算法 过 程 中 ， 
源 端 通过 不 断 地 与 环境 进行 试 错 交 互 ， 估 计 和 学 习 最 优 的 动 
作 值 函数 ; 然后 源 端 将 根据 学 习 到 的 Q 值 选择 当前 状态 下 的 
动作 。 为 了 保证 估计 的 动作 值 函 数 最 终 能 够 收敛 到 最 优 动 作 
值 函数 ， 本 文 使 用 = 贪 禁 策 略 来 权衡 探索 和 利用 ， 它 能 保证 
探索 到 足够 丰富 的 环境 状态 ， 同 时 能 利用 探索 到 的 状态 信息 
来 最 小 化 系统 的 长 期 平均 AoI。 因 此 ， 在 每 个 时 隙 中 ， 源 端 
将 以 = 的 概率 选择 随机 动作 ， 以 1-* 的 概率 选择 最 优 动 作 。 在 
数学 上 ， 道 循 * 贪 焚 策 略 的 动作 选择 可 以 表示 为 


— 


argmin Q(s(n,,x(m)  ife«p,xl 
X(N) = sx (28) 
Xa EX(S) if p, SE 
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a) WE n=0, Q(s,x) -0, VseS,xe y(s) 以 及 学 习 率 yo 和 贪 禁 率 = ， 
随机 选择 一 个 初始 状态 5。 
b) 当时 隙 4 小 于 预 设 值 时 ， 重 复 执行 以 下 步 又 ; 

c) 在 当前 状态 so) 下 根据 = 贪 禁 策 略 选择 动作 xb) ;以 = 概率 选择 随 
机 动作 ， 以 1-2 概率 选择 最 优 动作 。 
d) 采取 动作 xm , 与 环境 交互 获得 环境 回报 GG), x00) 和 下 一 个 系统 
状态 St+l) 。 
e) 通过 计算 (29) 式 更 新 动作 值 Q(s(n),x(m) ， 在 更 新 时 隙 数 n=n+1 后 
转 步 又 b)。 

f) 最 后 计算 7 =argminexm Q(s, 得 到 学 习 到 的 策略 r” o 


3 ”仿真 结果 及 性 能 分 析 


在 这 一 部 分 中 ， 本 文 对 所 提 的 联合 采样 和 混合 反 向 散射 
通信 更 新 策略 的 性 能 进行 了 分 析 。 为 了 评估 所 提 策 略 的 性 能 ， 
本 文 与 联合 采样 和 WPC 更 新 策略 (表示 为 A RK, KE 
采样 和 BC 更 新 策略 (表示 为 B 策略 ) 进 行 了 对 比 。 仿 真 结果 
展示 了 在 信道 动态 信息 已 知 的 情况 下 算法 1 的 性 能 ， 以 及 在 缺 
乏 信 道 动态 信息 的 情况 下 算法 2 提出 的 Q 学 习 算 法 的 性 能 。 

31 仿真 参数 设置 

在 仿真 中 ， 设 置 源 端 的 能 量 收集 效率 7=07 ， 目 的 端的 噪 
声 功 率 5 =-95dBm N2, 能 量 发 射 器 ET 到 源 端 $ 的 距离 des 以 
Km S 到 目的 端 D 的 距离 do 为 10m 。 路 径 损 失 建 模 为 
L=20+20logo d [17.231, Ech d 是 信道 链 路 距离 。 设 置 每 个 时 隙 的 
持续 时 间 为 1 秒 , 能 量 发 射 器 的 发 射 功率 = 为 23dBm , iio 


E im FB 
池 容 量 为 B=10nPh 01， 其 中 让 为 源 端 上 行 链 路 的 平均 信道 
益 。 状 态 采 样 的 能 量 成 本 铺 =3e ， 反 向 散射 通信 和 主动 信息 
传输 的 电路 能 耗 分 别 设置 为 Rac=89EW ，&r=ll3nwD075。 源 端 
的 反 向 散射 系数 &(n) 被 离散 化 为 5 级 ， 其 余 状 态 和 动作 变量 
被 离散 化 为 10 级 。 特别 地 ,由 于 采用 等 概率 的 方法 划分 信道 
增益 ， 因 此 信道 状态 转移 概率 为 P(h)=P(8")=1/K=0.1。 
3.2 性 能 分 析 

仿真 结果 图 3~ 图 5 展示 了 在 信道 动态 信息 已 知情 况 下 
相关 值 迭 代 算 法 的 性 能 。 其 中 ， 图 3 显示 了 ET 的 发 射 功率 
变化 时 不 同 策略 的 可 实现 最 优 长 期 平均 Aol， 更 新 包 的 大 小 
WE 7g M -18Mbits 。 可 以 看 到 ,无 论 ET 的 发 射 功 率 如 何 变化 ， 
本 文 提 出 的 策略 明显 优 于 联合 采样 和 WPC 更 新 策略 以 及 联 
合 采 样 和 BC 更 新 策略 。 这 是 由 于 所 提 策 略 结合 了 BC 模式 
低 功 耗 的 特点 和 主动 IT 模式 高 速率 的 特点 , 可 以 在 不 同 信道 
状态 下 选择 最 优 的 更 新 包 传 输 模 式 . 具 体 地 , 在 所 提 策 略 下 ， 
ET 的 发 射 功率 较 小 时 , 源 端 电池 中 存储 的 能 量 较 少 , 它 可 以 
选择 BC 模式 或 者 BC-IT 等 组 合 模 式 进 行 更 新 包 的 紧急 传输 。 
ET 的 发 射 功 率 较 大 时 ， 源 端 可 以 存储 较 多 的 能 量 在 电池 中 ， 
对 此 它 将 有 更 多 的 机 会 在 信道 条 件 差 的 情况 下 ， 将 更 新 包 发 


所 


其 中 ， p, - (0,1) 为 当前 时 隙 下 随机 生成 的 概率 ， Xa 表示 随机 
选择 的 动作 。 特别 地 , 在 给 定 状 态 动作 对 (50 P, "时 阶 处 Q 
学 习 的 迭代 更 新 公式 可 以 表示 如 下 : 


Q(s(n), x(n)) = (.— yG)QGGn, x()) + y(n) (GC), x(n)) + 


min Q(s(n +1), x(n)) - min Q(sy, x,)) 
xex(s) Xex(s0) 


RR, M 表示 时 隙 + 处 的 学 习 率 。 为 了 加 快 Q 学 习 算法 的 学 
习 速 度 并 且 保 证 源 端 探索 到 足够 的 状态 信息 ， 通 常 需 要 在 迭 
民 的 初始 时 期 设置 较 大 的 学 习 率 yo 和 贪 焚 率 = 。 另 一 方面 ， 
随 着 迭代 次 数 的 增加 ， 需 要 逐渐 减少 学 习 率 和 贪 禁 率 ， 以 便 
赴 计 的 动作 值 函数 可 以 快速 平稳 地 收敛 到 最 优 动 作 值 函数 。 
Q 学 习 算 法 的 详细 步骤 如 算法 2 所 示 。 

算法 2 Q 学 习 算法 

输入 : 初始 系统 状态 %， 学 习 率 ym) MAER = 。 

d: 学习 到 的 策略 Xx”。 


at 


送 到 目的 地 。 
12 + 
= 
11 -A- * 和 WPC 更 新 策略 有 
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Fig.3 Optimal long term average aoi versus power of energy transmitter 
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此 外 , 还 可 以 观察 到 , TE ET 的 发 射 功率 较 低 时 , B 策略 
的 可 实现 Aol 低 于 A 策略 ， 而 在 ET 的 发 射 功率 较 高 时 ，A 
策略 的 可 实现 平均 Aol 低 于 B 策略 。 这 是 由 于 A 策略 所 需 
要 的 更 新 能 量 成 本 较 高 ， 在 ET 的 发 射 功率 较 低 时 ， 源 端 没 
有 足够 的 能 量 及 时 地 进行 更 新 的 传输 ， 导 致 可 实现 的 最 优 平 
均 Aol 要 比 采 用 B 策略 的 高 。 但 是 ， 随 着 ET 发 射 功率 的 增 
加 ， 源 端 收集 的 能 量 也 逐渐 增加 ， 由 于 主动 IT 模式 相 比 BC 


模式 传输 速率 更 高 的 特点 ， 使 得 A 策略 的 可 实现 最 优 平均 
Aol 逐渐 低 于 B 策略 。 
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状态 更 新 包 斥 寸 (Mbits) 

图 4 不 同 策略 的 性 能 对 比 

Fig.4 Performance comparisons of different policy 
在 图 4 中 ,比较 了 当 更 新 包 大 小 M 变化 时 , 不 同 策略 的 
可 实现 最 优 长 期 平均 Aol 变化 。 本 文 所 提 策 略 的 性 能 要 优 于 
A 策略 和 B 策略 ， 并 且 随 着 状态 更 新 包 尺 十 的 增加 ， 所 有 策 
略 的 最 优 平均 Aol 都 单调 增加 。 还 可 观察 到 ， 在 更 新 包 较 小 
时 ，B 策略 的 平均 Aol 性 能 明显 优 于 A 策略 ， 然而 ， 当 更 新 
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相 比 减少 采样 能 量 成 本 更 能 提升 系统 的 AoI 性 能 ， 并 且 随 着 
状态 更 新 包 尺 寸 的 增加 ， 这 一 性 能 提升 差异 变 得 越 来 越 明显 。 
图 6 展示 了 基于 模型 的 相关 值 迭 代 算 法 和 无 模型 Q 学 习 
算法 在 收敛 后 10: 时 隙 中 得 出 的 系统 平均 Aol 性 能 。 特 别 地 ， 
由 于 相关 值 迭 代 算 法 知道 环境 的 精确 统计 模型 (如 信道 状态 
转移 概率 等 ), 因此 它 作 为 Q 学 习 算 法 的 性 能 下 界 ( 最 优 性 能 )。 
可 以 观察 到 ， 两 种 算法 的 平均 Aol 都 随 着 ET 发 射 功率 的 增 
加 而 下 降 , 并 且 Q 学 习 算法 的 性 能 非常 接近 相关 值 迭 代 算法 
的 性 能 。 具 体 而 言 ，Q 学 习 算 法 的 性 能 在 整体 上 接近 相关 值 
迭代 算法 性 能 的 96.23%。 因 此 ， 即 使 源 端 在 缺乏 信道 动态 信息 
的 情况 下 ,采用 Q 学 习 算 法 依然 可 以 达到 较 高 的 系统 Aol 性 能 。 
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图 6 提出 的 Q 学 习 算 法 的 性 能 分 析 
Fig.6 Performance analysis of the proposed Q-learning algorithm 
4 ”结束 语 


本 文 研究 了 一 种 反 向 散射 辅助 无 线 供电 通信 系统 的 长 期 


包 较 大 时 ，A 策略 的 平均 Aol 性 能 要 优 于 B 策略 ， 这 是 因为 

相 比 BC 模式 , Ex IT 模式 的 传输 速率 更 快 ， 可 以 传输 更 大 

的 更 新 包 。 
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图 5 最 优 长 期 平均 AoI 对 比 更 新 包 大 小 
Fig. 5 Optimal long term average aoi versus state update packet size 
图 5 绘制 了 对 于 不 同 的 采样 成 本 E, 和 电池 容量 了 ， 最 
优 长 期 平均 AoI 对 比 更 新 包 尺 寸 的 情况 。 特 别 地 ， 由 于 在 参 
Zi gx HD OR.-06m 情况 下 的 单位 能 量 量子 是 参数 设置 
Bu =03m 情况 下 的 两 倍 ,， 因 此 为 了 保证 在 对 照 组 的 电池 容量 
变化 时 ， 对 应 的 采样 能 量 成 本 相等 ， 需 要 分 别 设置 当 
B, -0.6mJ 时 的 采样 成 本 为 =16 ,. E, 72e, 4H E, 73e, A CAS 
果 中 可 以 明显 看 出 ， 随 着 E, 的 减 小 或 者 Ba 的 增 大 ， 系 统 的 
最 优 长 期 平均 A oT 减 小 。 这 是 因为 五 越 小 ， 源 端 就 能 节省 越 
BHEE; Ba 越 大 ,， 源 端 就 能 存储 越 多 的 能 量 , 这 都 增加 了 源 
端 在 未 来 持续 运行 的 可 能 性 。 同 时 ， 由 于 增 大 电池 容量 将 能 
传输 更 大 的 状态 更 新 包 ， 因 此 在 更 新 包 较 大 时 增 大 电池 容量 
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平均 Aol 最 小 化 问题 。 为 了 提高 系统 的 AoI 性 能 ， 提 出 了 联 
合 采样 和 HBC 更 新 策略 ， 其 中 源 端 可 以 动态 地 选择 传感器 
的 采样 动作 和 发 射 器 的 更 新 模式 。 为 了 获得 最 优 策 略 ， 首 先 
将 问题 建 模 为 一 个 有 限 状态 和 有 限 动作 的 无 限时 域 平 均 成 本 
MDP 问题 , 然后 在 信道 动态 信息 已 知 的 场景 下 , 通过 相关 值 
迭代 算法 对 问题 进行 迭代 求解 ; 在 信道 动态 信息 未 知 的 场景 
下 ， 采 用 无 模型 的 Q 学 习 算法 学 习 最 优 策略 。 最 终 ， 数 值 结 
果 表 明 ， 本 文 提出 的 策略 明显 优 于 联合 采样 和 WPC 更 新 策 
略 、 联 合 采 样 和 BC 更 新 策略 ;同时 发 现 , 采用 Q 学 习 算 法 可 
以 在 缺乏 信道 动态 信息 的 情况 下 ， 通 过 试 错 交互 和 学 习 也 可 
以 达到 较 高 的 Aol 性 能 。 在 未 来 的 工作 中 ， 将 考虑 一 个 反 向 
散射 辅助 无 线 供 能 通信 的 多 源 双 跳 中 继 网 络 的 场景 ， 通 过 深 
度 强 化 学 习 算 法 寻找 年 龄 最 优 策 略 ,以 优化 系统 的 AoT 性 能 。 
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